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摘 要 : 为 解决 入 侵 检测 分 类 遇 到 的 训练 样本 数量 少 、 分 类 准确 率 低 的 问题 ， 提 出 基于 模糊 支持 向 量 机 的 多 级 分 类 
机 制 。 该 分 类 机 制 首先 训练 模糊 SVM 模型 将 数据 粗 分 为 正常 与 攻击 大 类 ， 然 后 采用 DBSCAN 算法 产生 细 分 模型 进 
行 攻击 子 集 的 自动 聚 类 ， 将 有 关 数 据 细 分 得 到 攻击 的 具体 细 类 。 在 机 制 设 计 中 ， 优 化 了 隶属 度 函 数 的 计算 、 设 计 了 
数据 标准 化 与 归 一 化 等 过 程 ， 并 训练 了 高 效 分 类 器 。 实 验 表 明 ， 针 对 网 络 入 侵 检测 数据 中 常见 的 孤立 点 干扰 、 噪 声 
多 、 并 且 负 样本 占 比 多 的 网 络 业务 数据 集 ， 新 算法 在 保持 分 类 准确 率 高 的 前 提 下 ， 分 类 过 程 需要 的 计算 时 间 较 短 。 
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IDS classification algorithm based on fuzzy SVM models 


Wang Sheng!, Jin Zhigang” 
(1. Northern Institute of Electronic Equipment of China, Beijing 1000191, China; 2. School of Electronic & Information 
Engineering, Tianjin University, Tianjin 300072, China) 


Abstract: In order to solve the problem of small number of training samples and low classification accuracy in intrusion 
detection classification, this paper proposed a multi-level classification mechanism based on fuzzy support vector machines 
(FSVM) . This classification mechanism firstly trained the fuzzy SVM model to divide the data roughly into normal and 
attack categories, and then used DBSCAN algorithm to generate subdivision model for automatic clustering of attack 
subsets, and then subdivided the relevant data into specific classes of attack. In the mechanism design, the calculation of 
membership function has been optimized, the process of data standardization and normalization has been designed, and the 
efficient classifier has been trained. Experiments show that the new algorithm requires less computing time in the process of 
classification under the premise of high classification accuracy, aiming at the network service data sets with frequent 
isolated point interference, much noise and a large proportion of negative samples in the network intrusion detection 
datasets. 
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0 ”引言 尽管 分 类 准确 率 提 高 ， 但 是 计算 速度 下 降 较 多 ， 并 且 双 联 
- SVM 模型 导致 对 于 参数 选择 与 优化 更 加 敏感 , 很 难 实时 自动 

日 益 增 长 的 网 络 用 户 数量 导致 网 络 安全 问题 更 为 突出 。 选择 合适 的 模型 参数 。 
根据 CNNIC 第 41 次 报告 : 截至 2017 年 底 ， 我 国 网 民 数 量 针对 数据 噪声 问题 ， 有 学 者 引入 模糊 隶属 度 降 低 SVM 
接近 8 亿 ， 并 且 大 量 用户 使 用 网 络 金融 等 高 价值 应 用 凹 。 国 模型 对 噪声 点 的 敏感 性 钻 ， 但 是 该 模型 仅 采用 模糊 处 理 和 单 
对 网 络 安全 攻击 带 来 的 数据 泄露 、 网 络 诈骗 、 拒 绝 服务 等 问 ” 级 的 SVM 模型 难以 对 网 络 安全 数据 中 占 比 很 低 的 攻击 类 数 
题 ， 被 动 防御 和 主动 探测 等 网 络 安全 技术 成 为 研究 热点 。 据 进行 高 效 多 类 别 分 类 。 为 了 保持 分 类 的 准确 率 、 适 应 数据 


入 侵 检 测 是 主动 网 络 安全 的 重要 措施 ， 也 是 安全 防御 的 的 噪声 等 问题 ， 还 有 文献 采用 了 其 他 机 器 学 习 模型 与 算法 ， 
关键 手段 ， 一 般 通过 对 数据 包 进 行 分 析 和 鉴别 ， 以 采取 合适 主要 包括 : 人 工 免 疫 模型 中 、K- 均 值 聚 类 模型 等 。 另 一 方面 
的 防御 联动 措施 。 由 于 网 络 行为 日 益 复 杂 ， 需 要 灵活 高 效 的 入 侵 检 测 中 的 多 类 别 模型 研究 也 比较 广泛 ， 己 有 方法 主要 
识别 与 分 类 算法 对 数据 进行 分 析 。 中 于 直接 采用 多 类 SVM 分 类 模型 对 原始 数据 集 分 类 ， 如 
面向 网 络 入 侵 检测 的 状态 估计 与 分 类 可 以 采用 支持 向 量 用 偏 二 叉 树 多 类 分 类 算法 的 TWSVM 模型 四、 自 适 应 阔 值 
机 (supporting vector machine, SVM) 模 型 名 。 文 献 [3] 提 出 主 成 多 类 SVM 分 类 模型 器、 快速 多 类 采样 的 SVM 型 等 中。 文 
分 分 析 (principal component analysis, PCA ) 与 SVM 机 制 联 分 析 表 明 , 支持 向 量 机 模型 是 入 侵 检测 分 类 研究 的 主流 模型 。 
合 进行 入 侵 检测 分 类 。 该 方法 先 通过 PCA 算法 提取 网 络 数据 ”在 基础 SVM 模型 上 ， 面 向 数据 集合 自身 特征 与 分 类 的 实际 
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马 
屋 司 痊 浪 ~ 
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的 关键 成 分 ， 然 后 利用 粒子 群 算法 对 SVM 参数 进行 优化 训 需求 ， 设 计 合理 的 参数 并 融合 其 他 手段 可 以 有 效 进行 入 侵 检 
练 。 算 法 同样 提高 了 分 类 与 攻击 预测 的 准确 性 ， 于 采用 ” 测 训练 与 分 类 。 

了 PCA、 粒 子 群 和 SVM 三 类 机 器 学 习 算法 ， 导 致 复杂 度 较 相关 研究 表明 , SVM 模型 对 核 函 数 选择 与 参数 调节 非常 
高 , 而 且 算法 实际 分 类 效果 与 PCA 模型 中 专家 经 验 有 关 。 为 。 敏感 , 这 导致 在 多 类 分 类 算法 中 , SVM 的 参数 优化 会 随 着 类 
提高 入 侵 检 测 分 类 的 准确 性 ， 文 献 [4] 引入 双 联 SVM 模型 ， 别 的 增加 变 得 更 加 复杂 。 对 于 网 络 入 侵 检 测 来 说 ， 一 方面 训 
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练 数据 的 类 别 分 布 不 均匀 ， 另 一 方 
过 攻击 型 样本 数量 ,这 导致 直接 使 
难以 实现 模型 参数 优化 ， 产 4 


看 正常 型 样本 数量 远 远 超 


本 类 别 的 分 类 ; 
为 保证 


确 率 远 低 于 了 
入 侵 检测 多 类 判别 的 ; 


模型 的 二 分 类 与 
训练 模糊 SVM 


得 出 攻击 的 


多 值 匠 


对 初始 数据 集 进 
击 性 数据 ”采用 DBscan 细 分 类 模型 进行 多 类 自 
具体 类 别 。 


原始 数据 训练 单 级 SVM 
的 SVM 分 类 器 对 于 攻击 型 样 
E 常 样本 分 类 的 准确 率 。 因 此 ， 
侍 确 率 ， 论 文 设 计 了 模 糙 
归 细 分 类 模型 相 结合 的 新 机 制 。 首 先 
行 二 分 类 处 理 ， 然 后 将 


SVM 
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1 ”基于 SVM 的 粗细 两 级 模型 


动 聚 类 判别 ， 
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轩 (2) 
Diom=0 Uwsf*C, 1=h2,,0m 
i=1 
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二 入侵 检 测 数据 的 基于 模糊 SVM 模型 的 二 分 问题 转换 
为 通过 数据 集 的 训练 来 优化 模糊 隶属 度 函 数 的 问题 。 下 男 
体 说 明 通过 样本 训练 来 优化 隶属 度 函 数 ， 以 获得 粗 分 类 模型 

为 了 获得 优化 的 函数 庆 ， 将 训练 集 的 标签 分 正常 型 和 攻 
击 型 两 个 子 集 ， 对 于 正常 子 集 / 置 为 1， 攻 击 子 集 ! 置 为 -1。 
在 计算 样本 i 与 样本 子 集中 心 的 距离 基础 上 ， 计 算 i。 


~ 


1.1 模型 整体 设计 正 负 样本 的 中 心 分 别 记 作 为 和 x， 对 于 每 个 样本 i， 
首先 对 数据 包 进行 预 处 理 ,然后 通过 粗 分 类 器 进行 判别 ， ”计算 样本 与 正 样本 中 心 和 负 样 本 中 心 的 距离 。 以 正 样本 为 例 ， 
分 类 为 “正常 型 数据 ”不 需要 进一步 处 理 。 对 于 “攻击 数据 ” i ee Ce a 
子 集 ， 使 用 细 分 类 器 分 类 为 具体 的 攻击 类 型 。 义 “8 ， 同 样 可 以 计算 负 样本 的 4。 进一步 定义 
入 侵 检 测 分 类 模型 分 为 两 级 : 粗 分 类 器 对 初始 数据 进行 ”隶属 度 函 数 为 
初 筛选 出 感 兴趣 的 数据 ; 细 分 类 器 通过 训练 对 初 得 属于 攻击 p={ vl/ +5) 4=1 a 
的 数据 进行 多 类 细 分 。 如 图 1 所 示 ， 预 处 理 时 将 原始 数据 复 vl/(d +6) 4=-1 
制 两 份 ， 第 一 份 将 正常 型 数据 作为 正 样 本 ， 攻 击 型 数据 作为 对 于 全 部 样本 , 通过 LIBSVM 软件 对 隶属 度 函 数 广 进行 
负 样本 ， 仅 用 于 模糊 SVM 的 粗 分 类 ; 剔除 正常 型 数据 构造 ” 训练 优化 ， 将 得 到 的 模型 参数 应 用 到 1.3 小 节 的 分 类 器 中 。 
为 第 二 训练 集 ， 经 训练 器 训练 后 ， 得 到 适合 于 入 侵 检测 的 二 ”1.3 基于 DBSCAN 的 攻击 数据 多 类 细 分 
值 分 类 模型 参数 和 回归 模型 多 值 分 类 的 参数 ， 然 后 统一 将 粗 DBSCAN(Density-based spatial clustering of application 
细 分 类 训练 参数 传递 到 预测 器 ， 进 行 正式 的 分 级 多 类 判别 。 with noise) 是 一 种 基于 密度 的 聚 类 算法 00。DBSCAN 将 数据 
四 本 点 以 密度 为 依据 分 为 三 类 ， 判 断 依据 是 点 的 圆 邻 域内 的 数量 
人 是 否 超过 MinPts。 邻 域内 点 数 超过 MinPts 数目 的 点 称 为 核 
Ne 心 点 ; 在 半径 Eps 内 点 的 数量 小 于 MinPts， 但 是 落 在 核心 点 
aa 


SVM 训练 器 


DBscan 训 练 器 


预 处 理 器 


数据 采集 


分 类 器 


~ FSVM 分 类 


Y 


人 网 络 数据 ) 
SS | ~ 


图 1 模型 整体 流程 


Fig.1 Flowchart of Classification 
1.2 构建 模糊 分 类 模型 
传统 SVM 模型 容易 受 噪 声 点 和 孤立 点 影响 导致 分 类 不 


稳定 ， 入 侵 检 测 的 数据 集 往 


模型 。 对 数据 点 
以 较 好 解决 数据 


将 SVM 中 的 惩罚 


增加 模 煌 


往 噪 声 多 ， 不 能 直接 使 用 SVM 
隶属 度 属性 ， 通 过 引入 模糊 处 理 可 


孤立 点 与 噪声 对 分 类 的 影响 ， 用 隶属 度 函 数 
参数 模糊 化 ,通过 优化 训练 


SVM 参数 和 调 


整 隶 属 度 获得 针对 入 侵 检 测 数 据 的 高 效 粗 分 类 模型 。 


将 SVM 


的 核 函数 表示 为 


对 于 特征 向 量 为 » 标签 为 的 样本 i, 增 加 函数 /表示 其 


隶属 度 ，0</<1; 


$(v) ,扩展 后 的 


模糊 SVM 模型 最 优 分 类 等 价 为 求解 式 (1) 0。 


min JP+C 
lw:g$(v,)+b]— 
其 中 : 5 是 松弛 因子 ，C 是 
结果 可 选择 较 小 的 fi 取 值 以 


> 


+ 所 >0 


i m 


拉 格 朗 日 松弛 法 将 式 (1) 等 价 为 求解 式 (2) 的 极 


(1) 


固定 常数 ， 为 了 达到 更 好 的 优化 
降低 对 所 优化 结果 的 影响 。 采 用 


值 。 


的 邻 域内 的 称 为 边界 点 ; 
要 步骤 如 下 : 

a) 建立 新 簇 。 对 于 未 检查 子 集 中 的 对 象 p， 如 果 p 状态 
是 未 处 理 ， 则 检查 其 邻 域 。 判 断 邻 域 中 的 点 数 ， 如 果 数 量 不 
小 于 MinPts， 则 建立 新 徐 C， 并 将 其 中 的 所 有 点 加 入 候选 集 
N; 


其 余 被 分 类 为 噪声 点 。 该 算法 的 主 


b) 更 新 候选 集 。 对 候选 集 N 中 任 一 未 处 理 的 对 象 q， 
检查 其 邻 域 , 按照 邻 域 点 数 判 断 。 若 至 少 包 含 MinPts 个 对 象 ， 
则 将 这 些 对 象 加 入 N; 如 果 gq 不 属于 当前 任何 一 个 徐 ， 则 将 
gq 加 入 C; 

c) 判断 N 是 否 为 空 。 如 果 非 空 ， 则 重复 步骤 b); 

d) 判断 是 否 全 部 对 象 已 经 标记 完 。 如 果 有 剩余 对 象 ， 返 
步 又 c)。 否 则 ， 处 理 结束 。 

总 之 ， 提 出 的 新 分 类 模型 通过 综合 应 用 基于 模糊 SVM 
的 二 分 类 ， 再 对 被 判别 为 估计 的 数据 子 集 应 用 DBSCAN 算 
法 进行 聚 类 ， 进 一 步 将 攻击 数据 分 成 不 同类 别 的 子 类 别 ， 实 
疯 对 包含 孤立 点 和 大 量 噪声 ， 并 且 在 整体 数据 集中 占 比较 低 
的 攻击 数据 的 多 类 自动 分 类 。 


2 ”基于 模糊 SVM 的 二 级 入 侵 检 测算 法 


为 了 对 已 经 被 粗 分 为 攻击 的 数据 进一步 分 类 ， 采 用 一 对 
多 的 多 类 分 类 模型 ， 通 过 构造 预期 数量 的 分 类 进行 训练 。 对 
于 预测 分 类 器 ， 在 预测 某 网 络 数据 包 属 于 何 种 攻击 时 ， 计 算 
得 到 该 网 络 数据 包 属 于 某 类 别 的 概率 ， 然 后 概率 最 高 所 对 应 
的 类 判断 为 该 网 络 包 所 属 类 别 。 不 同 于 仅 直 接 使 用 
算法 分 类 ， 直 接 分 类 只 应 用 密度 信息 分 类 数量 受到 数据 来 源 
和 数据 质量 的 影响 2 。 论 文 设 计 的 二 级 分 类 算法 由 于 采用 ] 
模糊 SVM 进行 处 理 ， 使 得 噪声 点 影响 大 大 减少 ， 可 以 通过 
DBSCAN 算法 自动 生成 聚 类 ， 获 得 稳定 的 类 别 数量 。 对 于 论 
文 训练 使 用 的 数据 集 KDDCup99 来 说 ,可 分 为 四 类 ， 因 此 只 
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需 构 造 四 个 训练 器 。 训 练 器 基本 流程 如 图 2 所 示 。 


荆 


3 


3.1 


制 数 据 流 ， 需 要 进行 协议 解析 与 格式 转换 才能 用 来 分 类 。 首 
先 ， 使 用 


DBscan 算法 的 伪 代 码 如 下 : 
输入 : 数据 对 象 集合 D， 半 径 Eps， 密 度 闵 值 MinPts 
输出 : 聚 类 C 


DBSCAN (D, Eps, MinPts ) 


begin 
init C=0; // 初 始 化 簇 的 个 数 为 0 
for each unvisited point p in D 
mark p as visited; /将 p 标记 为 已 访问 
N = getNeighbours (p, Eps); 
if sizeOf(N) < MinPts then 
mark p as Noise; // 如 果 满 足 sizeOf(N) < MinPts， 则 将 p 标记 为 


else 
C= next cluster; /建立 新 徐 C 
ExpandCluster (p, N, C, Eps, MinPts); 
endif 


end for 


end 


载 入 训练 集 


< 人 label ~ 
Label=1 Label=-1 | 
了 存储 特征 向 量 
n++ | f 
-< Ne Ss 多 类 训练 器 
-着 * 


pa 


2 训练 器 基本 流程 


Fig.2 Procedure of Trainer 


关键 步骤 ExpandCluster 的 算法 伪 代 码 如 下 : 
ExpandCluster(p, N, C, Eps, MinPts) 
addp to cluster C; /首先 将 核心 点 加 入 C 
for each pointp’ in N 
mark p' as visited; 
N’= getNeighbours (p”, Eps); /对 N 邻 域内 的 所 有 点 进行 半径 检查 
if sizeOf(N’) >= MinPts then 
N= N+N’; /如果 大 于 MinPts， 就 扩展 N 的 数 
endif 


if p’is not member of any cluster 
add p’ to cluster C; /将 p' 加 入 簇 C 
endif 


end for 


end ExpandCluster 
SU 人 AU 人 、 
实验 验证 


数据 预 处 理 
网 络 入 侵 检测 系统 直接 收集 的 原始 数据 是 网 络 中 的 二 进 


libpcap 库 函 数 将 二 进 制 流 解 析 为 PP 地 址 、 端 口 和 


字符 以 及 十 六 进 制 数值 等 字段 。 转 换 后 的 数据 包含 离散 型 字 
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段 和 连续 型 字段 ， 离 散 型 字段 又 分 为 离散 字符 型 和 离散 数字 


型 。 


针对 相关 字段 进行 不 同形 式 的 预 处 理 ， 转 换 为 SVM 模 


型 可 以 接受 并 且 噪 声 与 误差 少 的 加 工 数据 。 预 处 理 流程 包括 
三 个 步 又 ， 离 散 字符 型 数据 处 理 、 数 据 标准 与 归 一 化 和 数据 
一 ~、、 | 商 权 字符 现 | | 标准 与 | | 数据 格 | 二 个 
(开始 三 说 数据 处 理 六 归 一 化 站 也 式 变换 结束， 


下 


便 了 


图 3 数据 预 处 理 流 程 
Fig.3 The flow chart of data preprocessing 
离散 字符 型 数据 处 理 将 字符 型 数据 转化 为 数值 型 数据 以 
F DBSCAN 算法 训练 时 计算 距离 等 运算 。 数 据 标 与 归 一 


化 是 原始 数据 的 取 值 范围 可 能 差距 过 大 ， 导 致 的 “大 数 吃 小 


数 ” 或 者 数据 处 理 溢出 以 及 权重 不 一 致 等 问题 。 


归 一 化 处 理 


消除 度量 单位 对 模型 训练 的 影响 ， 使 训练 结果 更 依赖 于 数据 
本 身 特 征 , 从 而 提高 聚 类 模型 参数 优化 与 分 类 预测 的 准确 性 。 
数据 格式 转换 将 经 过 数值 化 处 理 和 归 一 化 处 理 的 数据 进一步 


转换 为 LIBSVM 支持 的 格式 ， 以 便 进行 模 郊 


SVM 模型 的 直 


接 输入 和 训练 。LIBSVM 格式 广泛 应 用 于 常用 的 分 类 算法 ， 
般 采 用 {label 1:(value)l 2:(value)2 … … i:(value); …… 


n:(value)n} 格 式 ， 其 中 label 是 类 别 标签 , 序号 i 是 第 i 个 字段 


的 序号 ， 


(value)i 是 第 i 个 字段 的 数值 。 
看 采用 KDDCup99 数据 集 进 行 入 侵 检 测 系统 的 数据 


预 处 理 。 


3.1. 


1 字符 型 数据 数值 化 
KDDCup99 数据 集 包 含 42 个 字段 ， 其 中 41 个 是 网 络 数 


据 包 特 征 属性 字段 ， 另 外 一 个 是 该 条 数据 记录 的 标签 。 为 了 


避免 字符 数据 不 能 直接 计算 距离 以 及 过 大 过 小 数据 直接 应 用 
影响 平均 值 计算 和 距离 计算 效果 等 问题 ， 将 数据 的 字段 按照 


表 1 的 方法 进行 处 理 。 


表 1 字符 类 数据 数值 化 处 理 


Table 1 Quantizing of Chars 
TCP i a TCP 连 容 打 
字段 类 别 TCP 连 朗 基本 标识 特征 ”过 搁 内容 特 连续 性 数据 
特征 (9 个 ) 征 (13 个 ) 
协议 类 型 蔡 换 Flag 转换 为 十 进 Service 用 端 
数值 化 保留 原 数值 
数值 人 为 台数 制 什 号 着 换 。 全 四 局 贡 ! 


'TCP"UDP'TICMP 等 ， 


例如 ， 对 protocol type 字段 ， 其 离散 数值 包括 
则 'TCP' 用 11 表示 ,UDP' 用 12 表 


示 ,ICMP' 用 20 表示 。 


3.1. 


理 ， 


进行 归 一 化 。 将 带 
训练 集中 数据 的 条 数 序 号 ，j 表示 特征 的 编号 。 
征 j 的 平均 值 与 方差 来 对 数据 进行 标准 化 与 归 一 化 ， 计 算 公 


2 归 一 化 处 理 

对 数值 化 处 理 过 的 数据 进一步 进行 标准 化 与 归 一 化 处 
以 同一 特征 属性 为 依据 将 训练 集 的 数据 具有 同一 特征 的 
标签 的 训练 集中 某 条 数据 记 为 三 ,i 表示 
通过 计算 特 


式 如 下 : 
Hi (4) 
S2=1/n DY -oD (5) 
将 数据 用 同 特 征 的 均值 与 方差 来 处 理 为 标准 数据 为 ， 
0 ”w=0 或 5, =0 
二 本 其 他 (0) 


j 


进一步 进行 归 一 化 处 理 ， 数 值 归 一 化 后 的 处 理 结果 为 
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矶 ， 归 一 化 处 理 公 式 如 下 。 


六 一 0) 


3.1.3 数据 格式 转换 

将 经 过 数值 化 并 且 归 一 化 的 数据 集 转换 为 LIBSVM 格 
式 ， 以 便 进行 SVM 处 理 。 论 文 使 用 的 KDDCup99 数据 集 ， 
label 分 为 5 种 ， 即 NORMAL, DOS,R2L,U2R 和 PROBING。 
其 中 ，NORMAL 代表 正常 的 、 没 有 攻击 性 的 数据 包 ; DOS 
尺 表 拒绝 服务 攻击 ; R2L 代表 来 自 远 程 主机 的 未 授权 访问 ; 
U2R 代表 未 授权 的 本 地 超级 用 户 特权 访问 ;: PROBING 代表 
端口 被 监视 或 扫描 攻击 。 为 了 模型 训练 和 预测 分 类 需要 ， 在 
数据 格式 转换 时 生成 两 组 训练 集 第 一 组 将 NORMAL 数据 
的 Label 设置 为 -1， 将 其 他 四 种 数据 的 Label 设置 为 0; 第 二 
组 将 NORMAL 数据 剔除 ， 其 余数 据 保 留 。 

经 过 上 面 的 数值 化 处 理 、 标 准 化 与 归 
格式 转换 就 得 到 了 实用 数据 集 。 
3.2 实验 设计 

为 了 训练 和 测试 提出 的 攻击 分 类 算法 ， 搭 建 数 据 采 全 
安全 分 类 实验 环境 (图 4) ， 并 通过 KDD CUP99 数据 集 驱 
动 模 拟 攻击 软件 IDS Informer 来 产生 不 同 种 类 的 网 络 攻击 数 
据 包 ， 客 户 端 用 来 产生 正常 的 网 络 业务 数据 。 为 了 提高 实验 
效率 , 通过 对 KDD CUP99 集合 均匀 采样 使 用 50 万 条 数据 的 
20% 来 进行 训练 。 也 就 是 说 利用 正常 与 攻击 行为 共 10 万 个 训 
练 样本 进行 模糊 SVM 参数 优化 和 DBSCAN 算法 的 聚 类 训 
练 。 粗 细 二 级 分 类 器 训练 完成 后 ， 对 通过 搭建 的 原型 实验 网 
络 获取 的 真实 业务 截 包 ， 然 后 进行 预测 分 类 判别 。 表 2 是 训 
练 集 的 数据 类 别 分 布 和 搭建 的 实验 网 络 获取 的 测试 集 的 类 别 
分 布 。 

为 了 验证 论文 提出 的 算法 的 分 类 准确 率 和 时 间 效 率 ， 首 
先 仅 使 用 优化 训练 的 DBSCAN 分 类 器 与 朴素 贝 叶 斯 分 类 器 
(NB)、 支持 向 量 机 分 类 器 (SVM) 和 随机 森林 分 类 器 (RF) 
进行 分 类 准确 率 对 比 。 由 图 5 可 知 ，DBSCAN 分 类 器 的 准确 
率 最 高 ， 可 达到 85%， 其 他 分 类 器 的 准确 率 均 在 70% 左 右 。 


WEB 服 务 器 


化 处 理 以 及 数据 


JIT 


nt 


入 侵 检 测 服 务 器 


图 4 入 侵 检测 实验 环境 
Fig.4 Testing Environment of IDS 

在 训练 时 间 方面 ， 虽 然 朴素 贝 叶 斯 分 类 器 的 训练 时 间 远 
小 于 其 他 三 种 分 类 器 的 训练 时 间 ， 但 是 其 分 类 准确 率 过 低 ， 
并 且 对 数据 噪声 过 于 敏感 分 类 的 类 型 数量 不 稳定 。DBSCAN 
分 类 器 的 训练 耗 时 与 随机 森林 分 类 器 和 支持 向 量 机 分 类 器 的 
训练 时 间 相 近 ， 具 有 稳定 的 分 类 数量 和 高 分 类 准确 率 。 

于 真实 网 络 数 据 中 异常 的 攻击 数据 占 比 很 低 ， 品 声明 
显 ， 直 接 采 用 DBSCAN 算法 的 分 类 效率 偏 低 ， 而 且 训 练 时 
间 过 长 。 因 此 ， 进 一 步 实 验 2 中 ， 采 用 表 2 所 示 分 布 的 训练 
集 和 测试 集 ， 先 使 用 模糊 SVM 二 值 分 类 器 作为 粗 分 类 器 ， 
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然后 再 用 DBSCAN 分 类 器 对 攻击 型 数据 进行 细 分 类 ， 实 验 
结果 如 表 3 所 示 。 实 验 结果 表明 ， 模 糊 SVM-DBSCAN 的 联 
合 两 级 分 类 器 的 准确 率 比 单独 使 用 一 级 DBSCAN 分 类 器 提 
高 超过 10% ， 模 型 的 训练 时 间 只 增长 了 约 30%。 联 合 应 用 的 
粗细 二 级 分 类 器 更 适合 实际 的 网 络 场景 进行 实际 业务 数据 的 
及 时 分 类 和 联动 入 侵 检测 的 应 对 措施 。 

200% 
180% 


160% 
140% 


120% 
100% 
80% 
60% 
40% 3 
20% 
0% T 1 


页 叶 斯 随机 森林 SVM Dbscan 
目 准 确 率 目 训 练 时 间 (5) 


图 5 分 类 器 对 比 实验 

Fig.5 Comparison of classsifiers 

上 述 实验 使 用 的 是 普通 配置 的 电脑 ， 如 果 将 相关 算法 进 

行 编译 优化 ,并 且 运 行 到 高 配置 的 专用 服务 器 并 多 线程 执行 ， 
预计 可 以 提高 训练 速度 6~8 倍 ， 因 此 训练 时 间 会 下 降 到 
0.2~0.25 s。 进 一 步 ， 如 果 将 算法 迁移 到 专用 加 速 硬 件 可 以 至 
少 提高 训练 速度 一 个 数量 级 ， 也 就 是 训练 时 间 下 降 到 20~25 
ms， 该 速度 完全 可 以 满足 IDS 系统 的 工作 需要 。 

表 2 训练 集 与 测试 集 数据 类 别 


Table 2 Datasets of training and testing 


类 别 训练 集 测试 集 

normal 20000 30000 
DoS 4120 6276 
probe 4000 6462 
I21 4496 5991 
U2T 208 1500 


表 3 分 类 器 效果 对 比 


Table3 Results of classifiers 


分 类 器 分 类 准确 率 训练 时 间 /s 
模糊 SVM-DBscan 联合 96% 1.47 
仅 DBscan 85% 1.25 
4 ”结束 语 


在 分 析 入 侵 检 测 与 分 类 模型 研究 基础 上 ， 设 计 了 面向 多 
孤立 点 噪声 数据 的 粗细 联合 分 类 模型 ， 以 模糊 SVM 分 类 为 
基础 ， 对 粗 分 为 攻击 的 数据 再 利用 DBSCAN 模型 进行 聚 类 
细 分 判别 。 实 验 结果 表明 ， 在 训练 样本 分 布 不 均匀 、 训 练 样 
本 较 小 的 情况 下 , DBSCAN 算法 比 其 他 多 类 分 类 模型 的 准确 
率 高 、 训 练 耗 时 短 。 联 合 模 糊 SVM 与 DBSCAN 的 二 级 入 侵 
检测 算法 在 保持 较 快 训练 速度 的 前 提 下 实现 了 高 分 类 准确 
率 ,适用 于 正常 型 数据 和 攻击 型 数据 分 布 不 均匀 的 入 侵 检测 。 
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